통계의 함정 (문단 편집)

=== 너무 작은 표본에 기초한 결론 ===
아무도 빠지지 않을 것 같지만 실제로는 가장 많은 사람이 빠지는 통계의 함정이다. 어렸을 때 [[우유]]를 마시면 [[키(신체)|키]]가 큰다는 주장에 대해 "나는 우유 매일 마시고도 키가 작아. 그거 거짓말이야."와 같은 소리를 하는 사람이 있다. 실제로 우유와 키가 별 상관이 없다는 연구 결과가 많지만, 진위 여부와는 무관하게 본인의 경우만으로는 이를 판단할 수 없다. 이 말은 자기가 우유를 마시지 않았더라면 지금보다 키가 더 작았을 수도 있었다는 반론에 반박할 수 없기 때문이다.

유의 수준이란 통계 분석에서 제 1종 오류를 범할 가능성의 상한을 뜻하는 것으로서, p (probability)값으로 표기한다. 여기서 제 1종 오류란 '실제로 효과가 없는데 결과상 효과가 있다고 나오는 오류'를 일컫는 것으로, 귀무가설을 거짓으로 기각하게 된다. 가장 문제가 되는 오류로 일반적으로 학계에서는 이를 5% 미만으로 통제하고 있다. 바꾸어 말하면, 실제 효과가 없는데 효과가 있다는 결론이 도출될 가능성을 5% 미만으로 묶어두어야만 결과의 유효성을 인정하겠다는 것이다.

검정력(1-β)이란 실제로 효과가 있는 것을 통계 분석을 통해 효과가 있다고 증명할 수 있는 힘으로, 잘못된 귀무가설을 기각하는 능력을 말한다 일반적으로 검정력은 0.80(80%)로 설정하고, 그 이상의 검정력을 요구할 경우 더 많은 수의 연구 표본수를 필요로 한다. 연구 표본수가 작아지면 '실제로 효과가 있지만 결과 상 효과가 없다는 결론을 도출'하는 제 2종 오류(β)의 가능성이 높아지며 검정력은 감소하게 된다. 연구자들은 제 1종 오류를 5%로 유지하면서 검정력을 최대화하는 통계 기법을 사용하고자 한다.

[[https://www.youtube.com/watch?v=kfl2f8cZwdY|1종 오류와 2종 오류에 대한 영상]]

다만 p-값만 통제된다고 결론이 맞는 것은 아니며 자세한 건 [[p-해킹]]과 [[큰 수의 법칙]] 문서 참조.

이는 논문계 자체의 문제와도 연관이 되는데, 논문의 결과로 바라는 것은 대개 긍정되는 것[* 예를들어 마약 중독에 시금치가 효과가 없다는 논문과 시금치가 고혈압에 좋다는 논문이 있다면, 당연히 후자의 것이 높은평가를 받는다.]이기 때문에 부정된 결과는 무시되고 긍정되는 결과가 한번쯤은 나올 수도 있는 것이다. 시금치가 마약중독에 효능이 없다고 연구는 많이 했지만, 가치가 상대적으로 떨어져 발표는 되지 않고, 따라서 딱 한번 우연으로 시금치가 마약중독에 효과가 있다고 나오면 그것이 주목받게 되는 것이다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

통계의 함정 (문단 편집)

캡챠